Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: F1-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.
В последние годы в медицинской и научно-технической среде возрос интерес к задаче автоматического определения наличия депрессивного состояния у людей. Депрессия является одним из самых распространенных психических заболеваний, непосредственно влияющих на жизнь человека. В данном обзоре представлены и проанализированы работы за последние два года на тему определения депрессивного состояния у людей. Приведены основные понятия, относящиеся к определению депрессии, описаны как одномодальные, так и многомодальные корпусы, содержащие записи информантов с установленным диагнозом депрессии, а также записи контрольных групп, людей без депрессии. Рассмотрены как теоретические исследования, так и работы, в которых описаны автоматические системы для определения депрессивного состояния — от одномодальных до многомодальных. Часть рассмотренных систем решает задачу регрессивной классификации, предсказывая степень тяжести депрессии (отсутствие, слабая, умеренная, тяжелая), а другая часть – задачу бинарной классификации, предсказывая наличие заболевания у человека или его отсутствие. Представлена оригинальная классификация методов вычисления информативных признаков по трем коммуникативным модальностям (аудио, видео и текстовая информация). Описаны современные методы, используемые для определения депрессии в каждой из модальностей и в совокупности. Наиболее популярными методами моделирования и распознавания депрессии в рассмотренных работах являются нейронные сети. В ходе аналитического обзора выявлено, что основными признаками депрессии считаются психомоторная заторможенность, которая влияет на все коммуникативные модальности, и сильная корреляция с аффективными величинами валентности, активации и доминации, при этом наблюдается обратная корреляция между депрессией и агрессией. Выявленные корреляции подтверждают взаимосвязь аффективных расстройств с эмоциональными состояниями человека. В множестве рассмотренных работ наблюдается тенденция объединения модальностей для улучшения качества определения депрессии.
Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
1 - 3 из 3 результатов